home *** CD-ROM | disk | FTP | other *** search
/ Internet Info 1994 March / Internet Info CD-ROM (Walnut Creek) (March 1994).iso / answers / news / clarinet / howitworks < prev    next >
Internet Message Format  |  1993-11-21  |  18KB

  1. Path: senator-bedfellow.mit.edu!bloom-beacon.mit.edu!news.kei.com!sol.ctr.columbia.edu!howland.reston.ans.net!darwin.sura.net!news-feed-1.peachnet.edu!concert!decwrl!looking!brad
  2. Message-ID: <S615.439@clarinet.com>
  3. Date: Sun, 21 Nov 93 2:40:08 EST
  4. Expires: Wed, 22 Dec 93 2:40:08 EST
  5. Newsgroups: clari.net.newusers,news.answers
  6. From: brad@clarinet.com (Brad Templeton)
  7. Reply-To: clarinet@clarinet.com
  8. Followup-to: poster
  9. Approved: brad@clarinet.com
  10. Subject: ClariNet: How it works (Sep/93)
  11. Lines: 420
  12. Xref: senator-bedfellow.mit.edu clari.net.newusers:119 news.answers:14924
  13.  
  14. Archive-name: clarinet/howitworks
  15.  
  16. ClariNet draws news from a variety of sources.  This news is
  17. processed and converted into USENET format at ClariNet
  18. facilities.  It is then sent out via UUCP (the telephone/modem
  19. based inter-unix communications facility) and TCP/IP (the
  20. computer communications protocol used by many machines,
  21. including those on leased line networks like the internet)
  22. to ClariNet customers around the world.
  23.  
  24. We receive UPI (United Press International) wireservice news
  25. directly via satellite, in the same way that newspapers
  26. receive it.  The wire news comes (more or less) in what is
  27. known as the ANPA (American Newspaper Publishers
  28. Association) format.
  29.  
  30. This format was designed some time ago.  In the beginning,
  31. all wires simply fed directly to printers or teletypes, at
  32. speeds of 300 bps or less.  The ANPA format was eventually
  33. designed and revised to help newspapers that fed the wire
  34. directly into the composing computer.
  35.  
  36. Even so, it is primitive compared to formats like the USENET
  37. news format and modern electronic mail formats.  Only a
  38. small amount of information is formally specified.  By and
  39. large, the information is intended for use by computer
  40. assisted humans, not an electronic newspaper system like
  41. ClariNet.
  42.  
  43. The satellite feed also provides us with syndicated columns,
  44. stocks, and other newspaper related services.  The
  45. syndicates all buy transmission time on the two main
  46. newswire satellite networks (UPI and AP) -- charging it back
  47. to their customers, of course.
  48.  
  49. For other sources, we either call pickup points by modem or
  50. have the sources upload the information to us.  Once again,
  51. our software converts the information and injects it into
  52. the USENET style news system.
  53.  
  54. Where possible, news is fed directly to customers with
  55. minimal human intervention.  Our software has been trained
  56. to deal with the various inconsistencies in the wire feed so
  57. that news goes out even outside of business hours.  This
  58. ensures that the news gets to you as quickly as possible.
  59.  
  60. The software takes category information provided by the
  61. reporters and uses it to classify the articles into one or
  62. more appropriate newsgroups.  For example, all NASA stories
  63. go to clari.tw.space.
  64.  
  65. During business hours (and often outside them, too) ClariNet
  66. editors scan the report.  We can delete bad stories, edit
  67. them to make corrections, or adjust categorizations and
  68. newsgroups.  If a story is corrected, the old version is
  69. canceled and the update re-issued.
  70.  
  71. We don't edit every single mistake we find.  In general, we
  72. edit serious errors and add or delete categorizations from
  73. stories.  Most of this news is written quickly, with the
  74. goal of getting it to the client as soon as possible.  As
  75. such we sometimes let typos and other minor mistakes stand,
  76. in order to avoid excessive re-issuance of stories.
  77.  
  78.                        "Wireservices"
  79.  
  80.  
  81. Long before USENET existed, the wireservices built the first
  82. large scale text broadcast systems.  Aside from the feeds to
  83. newspapers -- done at first by telegraph, later by leased
  84. lines and now by satellite -- the wires have their own
  85. internal nets as well, where they can issue messages to
  86. their own people and even engage in limited discussion.
  87.  
  88. These nets have been around since the 19th century, long
  89. before computers even existed.  Unfortunately, it seems at
  90. times that their technology hasn't changed much since then.
  91.  
  92. As you will read, the reporters key in all the headers and
  93. classifications by hand with cryptic single letter codes.
  94. This is very prone to error.  With luck, this system will be
  95. replaced in the near future.
  96.  
  97. The largest wireservice in the world is the Associated
  98. Press, or AP.  AP is owned by member newspapers.  It has its
  99. own reporters, but also draws stories from the member
  100. papers.  In the USA, the #2 wire is United Press International,
  101. or UPI.  UPI is an independent wire, privately owned.  UPI
  102. draws revenue only from fees charged to client newspapers
  103. and distributors like ClariNet.  The third major wire is
  104. Reuters.  Reuters now makes the vast bulk of its revenue not
  105. from newspapers, but by providing information to people in
  106. the finance industries.  Nonetheless its wireservice
  107. components in the USA are similar in size to UPI.
  108.  
  109. As the #2 wire, UPI is far more willing to experiment with
  110. new concepts like electronic publishing.  This is what makes
  111. ClariNet wireservice news possible.
  112.  
  113. Just like USENET, wireservices have their own vocabulary.
  114. You'll see some of it in the advisories on ClariNet stories,
  115. which we put in the Note:  header line.
  116.  
  117.                        "Wire Activity"
  118.  
  119.  
  120. All wire stories have the following main components:
  121.  
  122.   1.  A priority that marks the importance of the story.
  123.  
  124.   2.  A general category from one of about a dozen ANPA
  125.       defined codes.
  126.  
  127.   3.  A *slugword*, or unique keyword that identifies the
  128.       story for that day.
  129.  
  130. A variety of other fields are optional and described later.
  131.  
  132.     "Priorities"
  133.  
  134. UPI covers a wide variety of topics.  The most important
  135. stories are termed *breaking* news.  These stories are
  136. assigned one of three special priorities -- flash, bulletin
  137. and urgent.
  138.  
  139. *Flash* is the most extreme priority there is.  Flash
  140. stories are only one sentence long, and are followed almost
  141. immediately by a bulletin.  The last known flashes were
  142. "space shuttle explodes" and "U.S.  invades Iraq" -- this
  143. gives you some idea of the importance of these stories.  Any
  144. flash, if and when it comes, will be posted to clari.news.flash.
  145. If you're a system administrator, you might arrange for
  146. special treatment and forwarding of such stories.
  147.  
  148. *Bulletin* is the normal priority for the most important
  149. breaking stories of the week.  Bulletins can range from
  150. major government announcements up to big events such as the
  151. U.S.  invasion of Panama.  One normally doesn't see more
  152. than a few bulletins per week; although like world events,
  153. bulletins come at random.
  154.  
  155. *Urgent* is a priority assigned reasonably frequently -- 3-6
  156. times per day.  The most important stories of the day get
  157. this priority.
  158.  
  159. Most other news gets the *regular* (called *rush* in the
  160. wire industry) priority.  Some other news will see lower
  161. priorities.  These are listed in the description of the
  162. Priority header line.
  163.  
  164. All breaking news stories are posted to special groups
  165. dedicated to news of that priority.  When a story is first
  166. assigned a priority, we maintain it in the group for that
  167. priority each time it is re-issued, even if the wire has
  168. dropped the story's priority to a lower value.
  169.  
  170.     "Scheduled News"
  171.  
  172. A lot of the major news that "moves" on the wires is not
  173. unexpected.  For example, a presidential press conference is
  174. sure to produce a big story, and everybody knows what time
  175. that story will arrive -- they just don't (usually) know
  176. what it will say.
  177.  
  178. In addition, a number of stories are important, but not
  179. particularly urgent, and are written with care for release
  180. at a particular time.  This is true of features and analysis
  181. pieces, or pieces about developing world situations.
  182.  
  183. These types of stories are known as scheduled stories, or
  184. "skedded" in the wire lingo.  The editors release a schedule
  185. of upcoming big stories for newspaper editors to use in
  186. planning their pages.  We assign any "skedded" story a
  187. priority of *major*, and have created some special groups,
  188. called "top" news groups, for such stories.
  189.  
  190.     "Classification"
  191.  
  192. The ANPA category provides some useful information about a
  193. dozen ANPA categories used regularly.  To supplement this,
  194. UPI has reporters and editors classify stories with special
  195. custom codes.  These map to keywords identifying several
  196. hundred different story topics.  It is these codes, along
  197. with our own judgement, that classify most of the stories
  198. into newsgroups.
  199.  
  200.     "Story Updates"
  201.  
  202. When a newspaper goes to press, it wants the latest version
  203. of any developing story.  For this reason, almost all
  204. breaking stories get issued several times during the day.
  205. The reporter keeps the text in his or her laptop, edits it
  206. as new details, quotes and corrections develop, and
  207. re-issues the entire story whenever anything important
  208. happens.
  209.  
  210. On a big story, as many as 20 updates may come in a day.
  211. Most major stories see two or three.
  212.  
  213. All updates (should) come with the same *Slugword* -- the
  214. unique keyword that identifies the story.  When ClariNet
  215. sees a story come in with the same slugword as a previous
  216. story, we normally arrange to replace the old story with the
  217. new one.  This is done by canceling the old one (USENET
  218. cancel message) and issuing the new one.
  219.  
  220. Unfortunately, it's not as simple as that, and this feature
  221. of wireservices is the source of the greatest problem in
  222. interfacing a wire to USENET format news.
  223.  
  224. Often updates come only minutes apart.  In these cases, the
  225. cancel and update is done before the original article is
  226. batched and sent to our clients.  This means that you never
  227. even see that original, which is good.
  228.  
  229. If updates are more widely spaced, you will get both
  230. versions (or several versions) and the cancel message(s).
  231. This means your newsgroups -- particularly the groups for
  232. breaking news -- will be full of gaps formed by deleted
  233. articles.  This causes the original rn program to pause, and
  234. can cause worse problems for the nn newsreader.  This can be
  235. fixed, however.
  236.  
  237. The worst question is how to present the updates to the
  238. reader.  This system works well for newspapers, for which it
  239. was designed.  They are only issued once a day, so readers
  240. only get the story that was current at press time.
  241.  
  242. On ClariNet, however, if you read an article soon after its
  243. release, and then come back to read again a few hours later,
  244. you may well see the same article presented again.  You
  245. aren't seeing the same article, of course, you're seeing an
  246. update.  It is up to you to decide if you wish to read the
  247. update for the latest details, or skip it.
  248.  
  249. Fortunately most updates have a Note:  line indicating what
  250. has changed in the article -- but only since the last
  251. update.  If several updates have been sent out since you
  252. last read news, this may not tell you enough.
  253.  
  254. It is a dilemma.  Either we present the subscriber with
  255. redundant news that most readers will elect to skip, or we
  256. keep potentially important updates from eager readers.  We
  257. have decided to do the former.  The use of Newsclip, and
  258. eventually fancier reading tools, can deal with this problem
  259. in a more suitable fashion.
  260.  
  261.     "Other Duplicates"
  262.  
  263. The update system isn't perfect, because the input from the
  264. wire isn't perfect.  Reporters sometimes forget to put
  265. updating flags on stories, for example.  Our software is
  266. keyed to look for changes in the headline or byline on a
  267. story.  A changed headline more than a few hours after the
  268. original story is treated as a new story by us.  This works
  269. about 95% of the time.  Sometimes, however, you will see a
  270. duplicated story appear under two headlines.  We try to
  271. correct these by hand.
  272.  
  273. Another common source of duplicates is changed slugwords.
  274. Sometimes an update comes to correct a mistyped or incorrect
  275. slugword.  As no information is provided as to what the old
  276. slugword was, we can't arrange to cancel the story being
  277. updated.  A duplicate ensues.
  278.  
  279. The final major source of apparent duplicates comes from the
  280. old concept of a wireservice being split into multiple
  281. wires.  One hears talk of the "news wire," the "sports wire"
  282. and the "financial wire."  In the old days, each wire went
  283. to a different department in the newspaper.  Today it's all
  284. the same physical channel, processed by a computer.
  285.  
  286. If a story breaks that belongs in more than one category, it
  287. may be sent out twice, with two entirely different
  288. slugwords, and two different ANPA category codes.  For
  289. example, Pete Rose's expulsion from baseball was both a
  290. sports story and a general news story.
  291.  
  292.                      "Standing Stories"
  293.  
  294.  
  295. The wires put out a large variety of standing stories.  These
  296. are regular features, all with the same slugword, that
  297. appear at some particular interval, such as every day or
  298. every week.
  299.  
  300. A list of most of the major standing stories can be found in
  301. a subsequent file.
  302.  
  303.                     "Wireservice Errors"
  304.  
  305.  
  306. As noted, the wireservice coding schemes are particularly
  307. prone to error.  We have trained our software to catch many
  308. typical errors, but the wires have little in the way of
  309. formal specification for what they do put out, and they
  310. don't always follow what formal rules they do have.
  311.  
  312. Thus you can expect some errors to reach you, particularly
  313. after business hours, or in the lower importance groups
  314. which don't receive full time scrutiny.
  315.  
  316. At first, we at ClariNet found these errors quite annoying.
  317. One realizes, however, that with thousands of stories to put
  318. out, even the best staff will make a few errors each day.  By
  319. and large, they do not interfere in any significant way with
  320. your effort to find the news you want to read, and as such,
  321. they can simply be ignored.
  322.  
  323. The most annoying are the coding errors, particularly those
  324. from coding typos.  You will sometimes see a story in a
  325. group that has nothing to do with the topic of that group.
  326. For example, a college football story, which a reporter
  327. would code as sfc (Sports-Football-College) may get entered
  328. as bfc (Business-manuFacturing-Computers) and thus posted to
  329. our very popular computer group.  Until we can convince UPI
  330. reporters to adopt a new coding scheme, such things are
  331. unfortunately possible.
  332.  
  333.                   "Local/Regional Stories"
  334.  
  335.  
  336. A great deal of a wireservice's output is regional news,
  337. collected for newspaper clients in various U.S.  states.
  338. Now, ClariNet releases many of these stories in the
  339. clari.local hierarchy.  We have local hierarchies for 30
  340. different U.S.  and Canadian regions, in addition to our
  341. international and national news.
  342.  
  343. Local stories of national importance are cross-posted
  344. between local and national newsgroups.
  345.  
  346. In certain national groups, we do publish regional stories.
  347. For example, the computer group, as well as most of the
  348. other technical groups, contain regional stories.  While
  349. this sometimes results in the odd truly-local computer
  350. story, ("Computer demo day at local University") most of the
  351. time it is worth it.  Our editors delete stories of the
  352. "demo day" form after-the-fact.
  353.  
  354.                       "Broadcast News"
  355.  
  356.  
  357. ClariNet also buys some wireservice news meant for radio
  358. stations.  These are used to provide our hourly news
  359. summaries (clari.news.cast and clari.news.headlines) along
  360. with the various local news summaries in the clari.local
  361. hierarchy.
  362.  
  363. Radio station wires contain shorter stories, and the stories
  364. have no headlines.  They are generally a bit sloppier, as
  365. the reporters do not expect them to see print.  In addition,
  366. they contain phonetic spellings of unusual names, so that
  367. radio announcers will read things correctly.
  368.  
  369.                   "Canadian Broadcast news"
  370.  
  371.  
  372. To serve Canadian clients, as well as expatriate Canadians
  373. around the world, ClariNet also offers Canadian news.  UPI,
  374. as a U.S.  wire, offers very little coverage of Canada.  This
  375. is normal for U.S.  media.  The group clari.news.canada
  376. contains the limited coverage that comes along the main wire
  377. -- only truly major stories and financial news.
  378.  
  379. The clari.canada hierarchy provides a feed of a broadcast
  380. wire (Standard Broadcast Wire) for Canadians to which we
  381. have arranged access.  All the problems of radio wires
  382. described above apply.
  383.  
  384. The best group to read for those outside of Canada is
  385. probably clari.canada.briefs which provides regularly
  386. updated summaries of major Canadian stories.  The group
  387. clari.canada.newscast provides an hourly newscast on world
  388. and Canadian news outside of business hours.  This also
  389. covers U.S.  and world events, so non-Canadian readers may
  390. wish to read it for late night updates.
  391.  
  392. Canadian regional summaries (still from SBW) appear in the
  393. clari.local hierarchy.
  394.  
  395.                          "Newsbytes"
  396.  
  397.  
  398. Newsbytes articles are not as well classified as UPI
  399. articles, but there is still some useful information.  It is
  400. put on the Keywords:  line.
  401.  
  402. The most important keyword that appears on each line takes
  403. the form Bureau-xxx where "xxx" is a three letter code for
  404. the location of the bureau.  You can use the presence of
  405. these codes to track or filter stories from certain regions.
  406. For example, filtering out Bureau-AUS will eliminate
  407. Australian stories.
  408.  
  409. (International stories that are more likely to be of
  410. regional interest are also likely to be coded with country
  411. prefix in the subject line, so you can use that in a filter
  412. as well.)
  413.  
  414. Other keywords include things like exclusive, review and
  415. correction, but it is less likely that you would filter on
  416. these.
  417.  
  418. Newsbytes headlines arrive at ClariNet in upper case.  Our
  419. software converts them to a more readable mixed case.
  420. Naturally such software can't be perfect, so the odd error
  421. will occur, but this is surprisingly rare.
  422.  
  423. Newsbytes also tags important stories.  These are
  424. crossposted to the clari.nb.top newsgroup.
  425.  
  426.                          "Features"
  427.  
  428.  
  429. Feature articles (such as the Dave Barry) column come in a
  430. fashion similar to UPI material, but they will have no
  431. keywords or location coding.  This is not normally a
  432. problem, as you usually will read every item in a feature
  433. group.
  434.